nvidia-smi 各种命令
nvidia-smi 是 NVIDIA System Management Interface,它是一个命令行实用程序,用于监控和管理 NVIDIA GPU 设备。以下是命令行选项的概述和解释:
基本选项
-h,--help: 显示帮助信息并退出。
列表选项
-L,--list-gpus: 显示连接到系统的 GPU 列表。-B,--list-excluded-gpus: 显示系统中排除的 GPU 列表。
摘要选项
<no arguments>: 显示连接到系统的 GPU 的摘要。-i,--id=: 指定特定 GPU。-f,--filename=: 将日志记录到指定文件,而非标准输出。-l,--loop=: 在指定的秒间隔内循环探测直到 Ctrl+C。
查询选项
-q,--query: 显示 GPU 或单元信息。-u,--unit: 显示单元而非 GPU 属性。-x,--xml-format: 生成 XML 输出。--dtd: 在显示 XML 输出时,嵌入 DTD。-d,--display=: 仅显示选定信息(如内存、利用率等)。-lms,--loop-ms=: 在指定的毫秒间隔内循环探测直到 Ctrl+C。
选择性查询选项
--query-gpu: 查询 GPU 信息。--query-supported-clocks: 列出支持的时钟。--query-compute-apps: 列出当前活动的计算进程。--query-accounted-apps: 列出已记账的计算进程。--query-retired-pages: 列出已退役的设备内存页面。--query-remapped-rows: 查询重映射行的信息。--format=: 指定格式选项,如 csv。
设备修改选项
-pm,--persistence-mode=: 设置持久模式。-e,--ecc-config=: 切换 ECC 支持。-p,--reset-ecc-errors=: 重置 ECC 错误计数。-c,--compute-mode=: 为计算应用程序设置模式。--gom=: 设置 GPU 操作模式。-r,--gpu-reset: 触发 GPU 重置。-vm,--virt-mode=: 切换 GPU 虚拟化模式。-lgc,--lock-gpu-clocks=: 锁定 GPU 时钟速度。-rgc,--reset-gpu-clocks: 重置 GPU 时钟到默认值。-lmc,--lock-memory-clocks=: 锁定内存时钟速度。-rmc,--reset-memory-clocks: 重置内存时钟到默认值。-ac,--applications-clocks=: 指定应用程序运行时的 GPU 时钟速度。-pl,--power-limit=: 指定最大功率管理限制。-am,--accounting-mode=: 启用或禁用记账模式。-mig,--multi-instance-gpu=: 启用或禁用多实例 GPU。-gtt,--gpu-target-temp=: 设置 GPU 目标温度。
单元修改选项
-t,--toggle-led=: 设置单元 LED 状态。
显示 DTD 选项
--dtd: 打印设备 DTD 并退出。
统计选项
stats: 显示设备统计信息(已弃用)。
设备监控
dmon: 以滚动格式显示设备统计。daemon: 作为守护进程在后 台运行并监控设备。replay: 用于重放/提取由守护进程生成的持久统计信息。
进程监控
pmon: 以滚动格式显示进程统计。
其他功能
topo: 显示设备/系统拓扑。drain: 显示/修改 GPU 排空状态以进行电源怠速。nvlink: 显示设备 NVLINK 信息。clocks: 控制和查询时钟信息。encodersessions: 显示设备编码器会话信息。fbcsessions: 显示设备 FBC 会话信息。vgpu: 显示 vGPU 信息。mig: 提供 MIG 管理控制。compute-policy: 控制和查询计算策略。boost-slider: 控制和查询提升滑块。power-hint: 估算 GPU 电源使用情况。base-clocks: 查询 GPU 基础时钟。ccu: 控制和查询计数器收集单元。
这些选项提供了对 NVIDIA GPU 的深度监控和管理功能,从简单的状态查询到复杂的配置调整。使用这些选项时,某些可能需要管理员权限或特定的硬件支持。